بهبود تشخیص داده های پرت محلی در جریان داده ها

پایان نامه
چکیده

افزایش روزافزون داده ها در پایگاه داده ها، نیاز به روش های بهینه برای آنالیز داده ها را افزایش داده است. بیشتر مطالعات، بر روی پیدا کردن الگوهای کاربردی در پایگاه داده ها متمرکز شده اند. این مطالعات برای کاربردهای تشخیص فعالیت مجرمین در تجارت الکترونیک، تشخیص اتفاقات نادر و تشخیص انحرافات نسبت به کاربردهای موارد دیگر بیشتر و مفیدتر واقع شده است. اخیرا مطالعاتی بر روی کشف داده های پرت در پایگاه داده ها انجام شده است. الگوریتم های زیادی برای تشخیص و کشف داده های پرت ارائه شده است، اما اکثر این الگوریتم ها بر روی داده های ایستا کارایی دارند. داده های جریانی، داده هایی به صورت پیوسته و نامحدود هستند که در طول زمان، تغییر توزیع را خواهند داشت. این تغییر توزیع، باعث می شود تا الگوریتم های موجود برای داده های ایستا، برای داده های جریانی غیرقابل استفاده شوند و کارایی چندانی نداشته باشند. از طرفی دیگر، این تغییر توزیع، باعث افزایش نرخ مثبت-کاذب در الگوریتم های موجود می شود. در این پایان نامه، الگوریتمی را ارائه خواهیم داد تا با استفاده از روش تقسیم جریان به قطعه های مساوی و محاسبه ضریب ناهنجاری محلی برای داده ها و استفاده از لیستی برای داده های پرت کاندید، بتوانیم داده های پرت و الگوهای نامتعارف را شناسایی کرده و نرخ مثبت-کاذب را کاهش داده و از طرف دیگر، دقت الگوریتم و نرخ تشخیص را افزایش دهیم. نتایج بدست آمده از اجرای الگوریتم پیشنهادی بر روی مجموعه داده های مصنوعی و حقیقی، نشان می-دهد که الگوریتم پیشنهادی باعث کاهش قابل توجه نرخ مثبت-کاذب و افزایش دقت و نرخ تشخیص شده است. همچنین در مقایسه با الگوریتم ضریب ناهنجاری محلی افزایشی، به دلیل عدم به روز رسانی ضریب ناهنجاری داده ها در هنگام ورود و خروج داده ها به سیستم، باعث افزایش سرعت سیستم شده است.

منابع مشابه

شناسایی خطاهای داده های خام بویه های موج نگار با استفاده از روش ضریب داده پرت محلی

استخراج مشخصات دریا معمولاً از طریق بویه‌های موج نگار انجام می‌شود. اما ثبت داده توسط موج نگارها معمولاً با خطاهایی همراه است. لذا قبل از استخراج هرگونه اطلاعاتی لازم است این خطاها را شناخت و آنها را حذف و یا تصحیح کرد. هدف از این تحقیق، شناسایی خطاهای موجود در برداشت داده-های خام از بویه‌های موج نگار، با استفاده از روش ضریب داده پرت محلی (LOF) است. LOF روشی قدرتمند جهت شناسایی ناهنجاری داده‌ها د...

متن کامل

تشخیص داده های پرت فضایی

در ذخایر معدنی، تشخیص مقادیری که در دم راست توزیع واقع شده اند، از نظر اقتصادی اهمیت ویژه ای دارند؛ در نتیجه تشخیص مرز این گونه مشاهدات در صنعت معدن اهمیت بسزایی در‏ اکتشاف و استخراج دارد. روش های موجود برای تشخیص داده پرت فضایی، مقدار این داده ها را ارائه می کنند و معیاری جهت شناسایی ‏مرز مقادیر بالا ارائه نمی دهند. از این رو در این پایان نامه برای شناسایی مرز مقادیر بالا، روش ‎مرز-بالا‎ پیشنه...

15 صفحه اول

شناسایی خطاهای داده های خام بویه های موج نگار با استفاده از روش ضریب داده پرت محلی

استخراج مشخصات دریا معمولاً از طریق بویه های موج نگار انجام می شود. اما ثبت داده توسط موج نگارها معمولاً با خطاهایی همراه است. لذا قبل از استخراج هرگونه اطلاعاتی لازم است این خطاها را شناخت و آنها را حذف و یا تصحیح کرد. هدف از این تحقیق، شناسایی خطاهای موجود در برداشت داده-های خام از بویه های موج نگار، با استفاده از روش ضریب داده پرت محلی (lof) است. lof روشی قدرتمند جهت شناسایی ناهنجاری داده ها د...

متن کامل

کاربرد الگوریتم های داده کاوی در تشخیص داده های ژئوشیمیایی خارج از ردیف چند متغیره

تشخیص داده‌های خارج از ردیف چند متغیره به کمک الگوریتم‌های داده‌کاوی یکی از نکات ضروری پیش‌پردازش داده‌های اکتشافات ژئوشیمیایی محسوب می‌شود. در این مقاله چهار الگوریتم برآورد چگالی کرنل (KDE)، ضریب خارج از ردیف بودن محلی (LOF)، OPTICS-OF و SVDD که به ترتیب جزو روش‌های آماری، روش‌های مبتنی بر مجاورت، روش‌های مبتنی بر خوشه‌بندی و روش‌های مبتنی بر دسته‌بندی هستند، معرفی شده و کاربرد آنها بر روی دا...

متن کامل

ذخیره سازی داده ها

انباشت داده­ ها زمانی تکنولوژی، تخیلات و رویاهای انسان را محدود می­ کرد. اما اکنون همان رویاها به ستیز با تکنولوژی برخاسته­ اند. به اعتقاد «روبرت بار» ما به جای اینکه همواره در پی انباشت داده­ ها باشیم، بایستی یاد بگیریم که چگونه آنها را توزیع و منتشر کنیم. من در ماه­ های اخیر از پیشرفت ­هایی که در امر توسعه بوقوع پیوسته و بطور بنیادی صنعت GIS را برای همگان قابل دست...

متن کامل

منابع من

با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

ذخیره در منابع من قبلا به منابع من ذحیره شده

{@ msg_add @}


نوع سند: پایان نامه

وزارت علوم، تحقیقات و فناوری - دانشگاه شیراز - دانشکده مهندسی برق و کامپیوتر

میزبانی شده توسط پلتفرم ابری doprax.com

copyright © 2015-2023